热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

实用|Cloudera数据科学工作台入门指南

在本篇博文中,我将简要介绍其功能和架构,以及通过三个简单步骤将Cloudera数据科学工作台连接到您现有CDH

点击上方“公众号” 可以订阅哦!

作者:Tristan Zajonc

网址:http://blog.cloudera.com/blog/2017/05/getting-started-with-cloudera-data-science-workbench/



前两周,Cloudera公司宣布了Cloudera 数据科学工作台(Cloudera Data Science Workbench)的通用版本的发布。在本篇博文中,我将简要介绍其功能和架构,以及通过三个简单步骤将Cloudera 数据科学工作台连接到您现有CDH集群的快速入门指南。

 

Cloudera 数据科学工作台的核心是为企业提供自助式数据科学。数据科学家可以在短时间内快速构建、扩展和部署数据科学以及机器学习解决方案,同时能够利用Cloudera公司的企业数据中心(EDH)的全部能力和安全功能。

Cloudera数据科学工作台的核心功能

Projects

Collaborative hub for enterprise data science with isolated projects, secure collaboration, and simple dependency management.

项目

具有项目独立、安全协作和简单依赖关系管理性能的企业数据科学协作中心。

Workbench

Integrated development environment for Python, R, and Scala with support for Spark 2 and connectivity to secured CDH clusters.

工作台

适用于Python、R和Scala的集成开发环境,支持Spark 2,并且与安全CDH集群的相连接。

Jobs

Lightweight job and pipeline system for data science workload that supports real-time monitoring, results tracking, and email alerting.

作业

适用于数据科学工作负载的轻量级作业和管道系统,支持实时监控、结果跟踪和电子邮件提醒。

自我们开始构建Cloudera数据科学工作台以来,我们的目标就是致力于为数据科学家、分析技术负责人和IT管理员提供其喜欢的解决方案。这意味着针对数据科学家提供其所需的零配置和真正的灵活性,针对分析技术负责人提供其所需的多租户和无缝协作功能,以及针对IT管理员提供其所需的易于集成和高安全性。在很长一段时间里,这些目标之间一直存在冲突。

 

通过利用Cloudera数据科学工作台1.0版本,我们相信我们已经实现了上述这些目标。具体来说,Cloudera数据科学工作台为不同团队提供了各种便利。

Cloudera数据科学工作台的主要优点

Data Scientists

数据科学家

Get more done, faster, on more data

更快更好地处理更多的数据

●Stat coding faster – no setup required

●更快的统计编码- 无需设置

●Use existing Python and R libraries

●使用现有的Python和R库

●Access secure Hadoop environments

●访问安全的Hadoop环境

●Easily automate, share, and deploy project code

非常方便地自动化、共享和部署项目代码

Analytics leaders

分析技术负责人

Scale the data science practice

扩大数据科学实践

●Deliver more projects, faster

●更快地提供更多的项目

●Easily onboard team members

●轻松使团队成员协作

●Enforce library standards, drive reuse

●执行库标准,促进再利用

●Enable collaboration between data scientists and business   teams.

●实现数据科学家和业务团队之间的协作

IT/operations

IT/运营

Reduce costs, risk, and fragmentation

节约成本、降低风险和存储残片

●Deliver self-service, shared analytics infrastructure

●提供自助服务,共享分析基础架构

●Leverage existing Hadoop investments

●利用现有的Hadoop投资

●Maintain security, governance, auditability, and SLAs

●维持安全性、治理性、可审计性和SLA(服务等级协议)

这些功能和优点的实现依赖于Cloudera 数据科学工作台的底层架构。为了了解其是如何实现的,下面我将进行更深入的说明。


数据科学的安全性、可扩展性、多租户网关

Cloudera 数据科学工作台在一个CDH集群上运行一个或多个专用网关主机。Cloudera Manager可确保Cloudera 数据科学工作台具有安全访问CDH集群所必需的库和配置,而无需其他配置。此外,数据科学家不必通过下载或安装步骤即可直接从网络浏览器访问Cloudera 数据科学工作台。

Cloudera 数据科学工作台连接至现有CDH集群


为了确保用户可以在没有IT干预的情况下使用其所需的所有工具和库,Cloudera 数据科学工作台使用Docker容器来运行独立的用户工作负载。针对每一个项目,用户可以使用不同版本的库和系统包运行R、Python和Scala工作负载。CPU和内存也是相对独立的,确保了在多租户设置中可靠、可扩展地执行。运行用户工作负载的每个Docker容器提供了一个虚拟化网关,可以安全访问集群服务,例如Apache HDFS、Apache Spark 2、Apache Hive和Apache Impala。

 

Cloudera数据科学工作台从基础开始构建,以支持数据科学团队在单一共享环境中协作完成任务。每次安装从一个主网关节点开始。可以随时增减工作人员网关节点以增加总容量,使之随着使用量的扩展,可以轻松地向最终用户以完全透明的方式添加容量。

 

Cloudera数据科学工作台可以透明地在多个节点之间调度容器。通过Kubernetes(Cloudera数据科学工作台内部使用的容器编排系统)可以完成此调度操作。不管是Docker还是Kubernetes都不会直接向最终用户公开呈现,用户通过Web应用程序与Cloudera数据科学工作台进行交互。通过防止用户直接访问边缘主机, Cloudera数据科学工作台为最终用户提供了额外的灵活性,同时保持了其安全性。

 

来自R、Python和Scala的Native Spark 2支持

除了支持独立的R和Python访问CDH服务(例如HDFS、Hive和Impala),Cloudera数据科学工作台也原生支持对Spark 2.1的交互式和批量访问 - Spark 2.1是Spark最新、最好的发布版本。没有必要经历提交Spark应用程序,等待结果,然后在发现错误或意外结果时重新提交应用程序的过程,数据科学家从探索到生产都可以在一个互动工作台中直接工作。

 

为了充分利用现有CDH集群的全部功能,Cloudera数据科学工作台通过YARN客户端模式发挥Spark的最大效力,其中Spark驱动程序在Cloudera数据科学工作台项目容器中运行,Spark执行程序运行在可以完全访问的CDH集群资源中。通过启用Spark的动态分配功能,Spark仅在必要时才申请资源,从而使集群资源能够以更为细粒度的方式对不同的工作负载动态共享。在容器内运行驱动程序,使得数据科学家能够在完全可定制的环境中轻松地安装软件包并交互式工作;同时,仍能充分利用Spark的分布式执行功能和YARN所具备的强大的多租户功能。

Spark 2支持R、Python和Scala与YARN进行集成,包括动态申请资源以支持长时间运行的交互式会话和批处理作业。

 

只需三个步骤,即可简单安装

Cloudera数据科学工作台提供了数据科学家、分析技术负责人和IT管理员所喜爱的自助式数据科学经验。幸运的是,将这些功能集成到您现有的CDH集群中也非常容易。

 

您可以通过访问我们的下载页面下载官方1.0 RPM,然后参照一些简单的安装步骤进行安装。在高级别中,您所需要做的就是:

 

1. 在Cloudera Manager中配置网关主机。

2. 在主网关主机上安装Cloudera数据科学工作台。

3. 添加零个或多个工作主机(如果需要的话)。

 

因此,您可以使用R、Python和Scala安全地连接到CDH集群,协作、共享项目和成果,并且可以在单一、安全的多租户环境中加速数据科学从探索向生产演变。



请点击阅读全文进入微站

(更多技术干货、行业动态,请关注【微站】,不定时更新)



推荐阅读
  • XNA 3.0 游戏编程:从 XML 文件加载数据
    本文介绍如何在 XNA 3.0 游戏项目中从 XML 文件加载数据。我们将探讨如何将 XML 数据序列化为二进制文件,并通过内容管道加载到游戏中。此外,还会涉及自定义类型读取器和写入器的实现。 ... [详细]
  • 本文详细介绍了 Java 中 org.apache.xmlbeans.SchemaType 类的 getBaseEnumType() 方法,提供了多个代码示例,并解释了其在不同场景下的使用方法。 ... [详细]
  • VPX611是北京青翼科技推出的一款采用6U VPX架构的高性能数据存储板。该板卡搭载两片Xilinx Kintex-7系列FPGA作为主控单元,内置RAID控制器,支持多达8个mSATA盘,最大存储容量可达8TB,持续写入带宽高达3.2GB/s。 ... [详细]
  • 毕业设计:基于机器学习与深度学习的垃圾邮件(短信)分类算法实现
    本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程,并提供了具体的代码示例和实验结果。 ... [详细]
  • 深入解析 Apache Shiro 安全框架架构
    本文详细介绍了 Apache Shiro,一个强大且灵活的开源安全框架。Shiro 专注于简化身份验证、授权、会话管理和加密等复杂的安全操作,使开发者能够更轻松地保护应用程序。其核心目标是提供易于使用和理解的API,同时确保高度的安全性和灵活性。 ... [详细]
  • 深入解析Spring Cloud Ribbon负载均衡机制
    本文详细介绍了Spring Cloud中的Ribbon组件如何实现服务调用的负载均衡。通过分析其工作原理、源码结构及配置方式,帮助读者理解Ribbon在分布式系统中的重要作用。 ... [详细]
  • Python自动化处理:从Word文档提取内容并生成带水印的PDF
    本文介绍如何利用Python实现从特定网站下载Word文档,去除水印并添加自定义水印,最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]
  • UNP 第9章:主机名与地址转换
    本章探讨了用于在主机名和数值地址之间进行转换的函数,如gethostbyname和gethostbyaddr。此外,还介绍了getservbyname和getservbyport函数,用于在服务器名和端口号之间进行转换。 ... [详细]
  • 本章将深入探讨移动 UI 设计的核心原则,帮助开发者构建简洁、高效且用户友好的界面。通过学习设计规则和用户体验优化技巧,您将能够创建出既美观又实用的移动应用。 ... [详细]
  • 本文汇总了在正式宴会上常用的寒暄语句,包括欢迎词、感谢词及日常问候,适用于各种正式场合。这些语句不仅有助于提升交际礼仪,还能增进彼此之间的友好关系。 ... [详细]
  • Hadoop入门与核心组件详解
    本文详细介绍了Hadoop的基础知识及其核心组件,包括HDFS、MapReduce和YARN。通过本文,读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]
  • 尽管使用TensorFlow和PyTorch等成熟框架可以显著降低实现递归神经网络(RNN)的门槛,但对于初学者来说,理解其底层原理至关重要。本文将引导您使用NumPy从头构建一个用于自然语言处理(NLP)的RNN模型。 ... [详细]
  • 深入探讨CPU虚拟化与KVM内存管理
    本文详细介绍了现代服务器架构中的CPU虚拟化技术,包括SMP、NUMA和MPP三种多处理器结构,并深入探讨了KVM的内存虚拟化机制。通过对比不同架构的特点和应用场景,帮助读者理解如何选择最适合的架构以优化性能。 ... [详细]
  • 本文探讨了MariaDB在当前数据库市场中的地位和挑战,分析其可能面临的困境,并提出了对未来发展的几点看法。 ... [详细]
  • 探讨如何真正掌握Java EE,包括所需技能、工具和实践经验。资深软件教学总监李刚分享了对毕业生简历中常见问题的看法,并提供了详尽的标准。 ... [详细]
author-avatar
我是小章丘
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有